دسته بندی موضوعی متون فارسی بر اساس روش قواعد انجمنی
thesis
- وزارت علوم، تحقیقات و فناوری - دانشگاه پیام نور - دانشگاه پیام نور استان تهران - دانشکده فنی
- author سید محمد حسین احمدی
- adviser سید امیر حسن منجمی سید سعید آیت
- Number of pages: First 15 pages
- publication year 1390
abstract
برای دسته بندی متن از تکنیک های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می شود. به طور کلی هدف یک دسته بند متون، دسته بندی اسناد در قالب تعداد معینی از دسته های از پیش تعیین شده می باشد. هر سند می تواند در یک، چند و یا هیچ دسته ای قرار بگیرد. در مورد هر سند به این سوال پاسخ داده خواهد شد که این سند در کدام یک از دسته ها قرار می گیرد. این موضوع می تواند در قالب یک یادگیری خودکار قرار گیرد تا با استفاده از آن بتوان هر سند را به طور خودکار به دسته ای نسبت داد. در این تحقیق، از روش دسته بندی بر مبنای قواعد انجمنی که از روی فرایند کاوش الگوهای مکرر مجموعه داده های آموزشی تولید شده اند، برای دسته بندی متون فارسی استفاده می شود. این فرآیند با فرآیندی که در داده کاوی داده های بزرگ پایگاه داده ها استفاده می شود یکسان می باشد. یکی از مهم ترین الگوریتم هایی که برای تولید قواعد انجمنی بکار می رود الگوریتم apriori می باشد. در این تحقیق از الگوریتم cba که برای این کاربرد مناسب تشخیص داده شد، استفاده شده است. پیکره ی مورد استفاده برای انجام آزمایشات، پیکره متون فارسی همشهری 2 می باشد، که مقالات آن کامل و حجیم بوده و به 8 دسته خبری تقسیم شده اند. پس از انجام پیش پردازش های لازم بر روی پیکره همشهری 2 و تبدیل آن به فرمت مناسب، کلمات کلیدی متون آموزشی با استفاده از تکنیک tfidf و نرم افزار قدرتمند weka استخراج می شوند. سپس قواعد انجمنی دسته بندی از روی داده های آموزشی (کلمات کلیدی بدست آمده از مرحله قبل)، با استفاده از نرم افزار dmii cba که الگوریتم cba را پیاده سازی کرده است استخراج شده و دسته بند نهایی تولید و ذخیره می شود. در ادامه از این دسته بند برای دسته بندی متون آزمایشی استفاده می شود. آزمایشات انجام شده و ارزیابی آن ها نشان می دهد با افزایش تعداد متون آزمایشی و انتخاب مناسب کلمات کلیدی مرتبط با موضوع متن، دقت دسته بند به طور چشمگیری افزایش می یابد.
similar resources
روشی نوین برای دسته بندی متون فارسی با استفاده از قواعد انجمنی
امروزه مدیریت مبتنی بر محتوای متون، به علت رشد سریع و در دسترس قرار گرفتن متون به شکل دیجیتالی، از اهمیت زیادی برخوردار است. از طرفی دیگر یکی از روش های مهم در سازمان دهی اطلاعات، دسته بندی اسناد زبان طبیعی در دسته های از قبل مشخص شده است. با توجه به اهمیت موضوع و کاری که در این زمینه برای زبان های دیگر دنیا انجام شده است، نیاز به دسته بندی متون فارسی به خوبی احساس می شود. در سال های اخیر، الگو...
ارائه ی یک مدل جهت دستهبندی متون فارسی با استفاده از ترکیب روش های دسته بندی
برای دستهبندی متن از تکنیکهای استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده میشود به طور کلی هدف یک دسته بند متون، دستهبندی اسناد در قالب تعداد معینی از دستههای از پیش تعیین شده میباشد. هر سند میتواند در یک، چند و یا هیچ دستهای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دستهها قرار میگیرد. این موضوع میتواند در قالب یک ی...
full textارائه ی یک مدل جهت دستهبندی متون فارسی با استفاده از ترکیب روش های دسته بندی
برای دستهبندی متن از تکنیکهای استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می شود به طور کلی هدف یک دسته بند متون، دستهبندی اسناد در قالب تعداد معینی از دستههای از پیش تعیین شده میباشد. هر سند می تواند در یک، چند و یا هیچ دسته ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دستهها قرار می گیرد. این موضوع می تواند در قالب یک ی...
full textدسته بندی موضوعی متون فارسی با استفاده از بانک لغات موضوعی
پژوهش در ارتباط با یافتن راهکاری برای دسته بندی موضوعی متون بر اساس هفت دسته از پیش تعیین شده است.در این پژوهش با ابتکار خلق بانک لغات موضوعی یک دسته بندی با درصد دقت و سرعت بهتر صورت گرفته است
افزایش کارائی دسته بندی متون بر اساس بهبود روش انتخاب خصیصه
در دسته بندی متون معمولا از کلمات به عنوان خصیصه استفاده می شود. از آنجا که در هر مجموعه متون، تعداد بسیار زیادی خصیصه وجود دارد، در این مقاله روش هائی به منظور کاهش تعداد خصیصه ها و انتخاب خصیصه های مرتبط، پیشنهاد شده است. به طور کلی روش های فیلتری انتخاب خصیصه از چهار همبستگی مثبت و منفی بین خصیصه های سندها و دسته ها در ضابطه انتخاب خصیصه استفاده می کنند. در روش های پیشنهادی این مقاله ابتدا ک...
full textبهبود توانایی دسته بندی در دسته بندی انجمنی
در سال های اخیر، استفاده از دسته بندی توسط قوانین همبستگی بیشتر مورد توجه قرار گرفته است. تحقیقات نشان می دهند که استفاده از این روش عملکرد بهتری نسبت به سایر الگوریتم های دسته بندی دارد. در این پایان نامه، هدف از دسته بندی با استفاده از قوانین همبستگی تنها حل مسائل دسته بندی نبوده است، بلکه به دنبال راهی هستیم تا بتوانیم روش های مختلف استخراج قوانین همبستگی را مقایسه کنیم. هدف کلی از دسته بند...
My Resources
document type: thesis
وزارت علوم، تحقیقات و فناوری - دانشگاه پیام نور - دانشگاه پیام نور استان تهران - دانشکده فنی
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023